摘要 - LARGE语言模型(LLMS)近年来显示出大大提高的性能,这归因于增加的规模和广泛的培训数据。这一进步导致了行业和公众的广泛利益和收养。但是,在机器学习模型中训练数据记忆的模型大小,尤其是与LLM有关的尺寸。记忆的文本序列有可能直接从LLM中泄漏,从而对数据隐私构成严重威胁。已经开发了各种技术来攻击LLM并提取其培训数据。随着这些模型的不断增长,此问题变得越来越关键。帮助搜索者和政策制定者了解有关隐私攻击和缓解的知识状态,包括需要更多工作的地方,我们介绍了有关LLMS数据隐私的第一个SOK。我们(i)确定攻击在LLM上不同的显着维度的分类法,(ii)使用我们的尺寸分类法对现有攻击进行系统化,以突出关键趋势,(iii)调查现有的缓解策略,突出其优势和局限性,以及(iv)(iv)确定了关键的空白,表明了开放问题和问题。
主要关键词